万能近似理论研究的是在空间中的近似,该函数由一个单隐藏层神经网络代表:其中,是某激活函数,是神经网络中隐藏单元的数量。对于不同的空间和激活函数,近似误差有上界和下界。下面介绍一些具有代表性的结论。首先,当时,任何连续函数都可以在温和条件下被某些所近似。宽泛地说,这是因为就像是一个基函数,并且在一个适当的空间中存在基扩展。那么对一个有限的,近似率为多少呢?将的范围限制在的单位球中。对于和整数,考虑和具有标准准则的Sobolev空间:其中代表以为索引的偏导数。令为函数在Sobolev空间中满足的空间。注意中的函数在阶以下都有有界导数,且函数的平滑性由控制(越大越平滑)。用表示(21)式中的函数空间。Hrushikesh N Mhaskar(1996)提出以下一般上界。上述定理意味着,单隐藏层神经网络能够以足够的隐藏单元来逼近任何平滑函数。然而,目前还不清楚如何找到一个好的近似估计,也无法控制参数的大小。VE Maiorov and Ron Meir(2000)则阐述了以下(几乎)匹配的下界。对于平滑函数的自然空间来说,上下界中对的指数依赖可能看起来并不令人满意,然后Andrew R Barron(1993)表明,对于不同的函数空间,有一个很好的由神经网络构成的无维度近似。假设有一个函数有傅里叶表示法:其中。假设,并且下式有限
本小节主要介绍Henry W Lin, Max Tegmark, and David Rolnick(2017)和David Rolnick and Max Tegmark(2017)关于深层神经网络的研究结果。
为简单起见,假设输入有有界域,是一个一般函数,是的逐元应用。考虑一个类似(3)式的神经网络,但其有scaler output:。对任意,一个单元或神经元指的是向量的一个元素。对于一个多变量的多项式,定义为最小的整数,使得对任意,存在一个满足的具有个隐藏层(即)且神经元总数不超过的神经网络。本质上,是很好近似所需的最小神经元数量。该定理揭示了浅层网络(一个隐藏层)和深层网络之间的明显区别。为了表示一个单项式函数,浅层网络需要指数级数量的神经元,而对深层网络来说,线性数量的神经元就够了。如定理4(i)所示,对的指数依赖与许多领域中广泛存在的维度诅咒一致。深度则规避了这个问题,至少对某些函数来说是这样,它允许我们有效地表示函数组合。非参数回归的最新进展也支持深度学习网络擅长代表函数这一观点。Benedikt Bauer and Michael Kohler(2017)考虑了参数回归的设置,用数据估计了一个函数。如果真实的回归函数具有一定的层次结构和内在维度,则误差有一个最佳的收敛率,而不是通常的依赖于维度的收敛率。这为深度神经网络提供了另一个理由:如果数据真的是分层的,那么深度神经网络的近似器的质量就取决于内在维度,这就避免了维度诅咒。
保证几乎处处收敛到唯一最小值,即 as 。可以从偏差-方差权衡的角度来看(28)中的要求:第一个条件确保迭代结果可以达到最小化,第二个条件确保随机性不会阻碍收敛(控制方差)。
渐近正态性。Boris Teodorovich Polyak and Yakov Zalmanovich Tsypkin(1979)证明,对于具有固定维度的稳健线性回归,在选择时,在某些规则性条件下是渐进正态的。此外,对SGD迭代结果进行平均化,Boris T Polyak and Anatoli B Juditsky(1992)证明,即使步长较大,对稳健线性回归,平均迭代是渐进有效的。
当损失函数为为非凸时,虽然在最坏的情况下,寻找非凸函数的全局最小值在计算上不可行,但Zeyuan Allen-Zhu, Yuanzhi Li, and Zhao Song(2018)和Simon S Du, Jason D Lee, Haochuan Li, Liwei Wang, and Xiyu Zhai(2018)通过关注过度参数化的深度学习模型产生的损失,绕过了最坏的情况,他们表明只要神经网络充分过度参数化,(随机)梯度下降就会向的全局最小线性收敛。该现象被阐述如下:尽管理论上得到证明,但朴素SGD(vanilla SGD)仍面临其他挑战:(1)训练算法通常在GPU中实现,因此根据基础设施制定算法十分重要。(2)对深度学习网络来说,朴素SGD可能收敛得很慢。(3)学习率在实践中可能很难调整。为解决以上问题,下面引入SGD的三个重要变体,即小批量梯度下降法(Mini-batch SGD)、基于动量的SGD(Momentum-based SGD)和具有自适应学习率的SGD(SGD with adaptive learning rates)。
其中是第步的预设条件。其优点有二:第一,一个好的预设条件可以通过改变局部几何形状使其更加均匀以减少条件数,这有利于快速收敛;第二,一个好的预设条件可以使模型训练免于步长调参。AdaGrad是一种自适应梯度方法,它基于过去梯度信息建立了一个预设条件:Simon S Du, Jason D Lee, Haochuan Li, Liwei Wang, and Xiyu Zhai(2018)和John Duchi, Elad Hazan, and Yoram Singer(2011)研究表明,AdaGrad通过对频繁出现的特征设置较小的学习率,对不频繁出现的特征设置较大的学习率来适应参数中每个坐标的重要性。在实践中,通常在对角线元素中加入一个很小的量(如)以避免奇异性。由于梯度的历史总和只能随时间增加,AdaGrad的一个显著缺点是有效学习率在学习过程中迅速消失。RMSProp(Geoffrey Hinton, Nitish Srivastava, and Kevin Swersky,2012)是解决这个问题流行的方法,它包含了指数平均的思想:同样,衰减系数通常被设置为0.9。
令是一个具有个隐藏单元的单隐藏层神经网络给出的函数,其中是ReLU激活函数,被适当地随机初始化。考虑回归设置,我们希望最小化整体风险,它仅通过的经验分布(其中)是的点质量)依赖于参数。这促使我们等价地表示为,其中是一个将分布映射到实数的函数。在一个合适的缩放极限内,对运行SGD算法,会导致在具有最小化的Wasserstein度量分布空间上的梯度流动。结果表明,只要神经网络过度参数化(即)且步长不太大,那么梯度跟随法就能很好地逼近随机梯度下降步后参数的经验分布。特别是Song Mei, Andrea Montanari, and Phan-Minh Nguyen(2018)已经证明在一定的正则化条件下,有:其中,代表SGD步长,是梯度流动在时刻的分布。也就是说,SGD产生的下的外样本误差能够被很好地近似。从分布的角度来看优化问题极大地简化了问题的概念,复杂的优化问题现在被转化为它的极限版本。因此,这种分析方法称为平均场透视法。
[1] Herbert Robbins and Sutton Monro. A stochastic approximation method. The Annals of Mathematical Statistics, 22(3):400–407, 1951.[2] Boris Teodorovich Polyak and Yakov Zalmanovich Tsypkin. Adaptive estimation algorithms: convergence, optimality, stability. Avtomatika i Telemekhanika, (3):71–84, 1979.[3] Boris T Polyak and Anatoli B Juditsky. Acceleration of stochastic approximation by averaging. SIAM Journal on Control and Optimization, 30(4):838–855, 1992.[4] Zeyuan Allen-Zhu, Yuanzhi Li, and Zhao Song. A convergence theory for deep learning via overparameterization. arXiv preprint arXiv:1811.03962, 2018.[5] Simon S Du, Jason D Lee, Haochuan Li, Liwei Wang, and Xiyu Zhai. Gradient descent finds global minima of deep neural networks. arXiv preprint arXiv:1811.03804, 2018.[6] John Duchi, Elad Hazan, and Yoram Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 12(Jul):2121–2159, 2011.[7] Geoffrey Hinton, Nitish Srivastava, and Kevin Swersky. Neural networks for machine learning lecture 6a overview of mini-batch gradient descent. 2012.[8] Noah Golowich, Alexander Rakhlin, and Ohad Shamir. Size-independent sample complexity of neural networks. arXiv preprint arXiv:1712.06541, 2017.[9] Song Mei, Andrea Montanari, and Phan-Minh Nguyen. A mean field view of the landscape of two-layer neural networks. Proceedings of the National Academy of Sciences, 115(33):E7665–E7671, 2018.[10] Moritz Hardt, Benjamin Recht, and Yoram Singer. Train faster, generalize better: Stability of stochastic gradient descent. arXiv preprint arXiv:1509.01240, 2015.[11] Daniel Soudry, Elad Hoffer, Mor Shpigel Nacson, Suriya Gunasekar, and Nathan Srebro. The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1):2822–2878, 2018.[12] Hrushikesh N Mhaskar. Neural networks for optimal approximation of smooth and analytic functions. Neural computation, 8(1):164–177, 1996.[13] VE Maiorov and Ron Meir. On the near optimality of the stochastic approximation of smooth functions by neural networks. Advances in Computational Mathematics, 13(1):79–103, 2000.[14] Andrew R Barron. Universal approximation bounds for superpositions of a sigmoidal function. IEEE Transactions on Information theory, 39(3):930–945, 1993.[15] Henry W Lin, Max Tegmark, and David Rolnick. Why does deep and cheap learning work so well? Journal of Statistical Physics, 168(6):1223–1247, 2017.[16] David Rolnick and Max Tegmark. The power of deeper networks for expressing natural functions. arXiv preprint arXiv:1705.05502, 2017.[17] Benedikt Bauer and Michael Kohler. On deep learning as a remedy for the curse of dimensionality in nonparametric regression. Technical report, Technical report, 2017.- END -